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摘要 : 

命名 实体 识别 是 识别 文本 并 理解 的 重要 步骤 ， 经 过 长 久 发 展 ， 使 用 深度 学 习 方法 研究 和 改 
进 命名 实体 识别 过 程 已 成 为 常见 方法 。 本 项 目 使 用 基于 长 短期 记忆 网 络 LSM 模型 的 方 
法 ， 实 现 了 一 个 中 文 命名 实体 识别 系统 ， 并 实现 了 较 高 准确 率 。 


关键 词 : 中文 命名 实体 识别 ” 深度 学 习 ”长 短期 记忆 网 络 
分 类 号 : TP181 


Chinese Named Entity Recognition Based on Long Short Term 


Memory Networks 


Guan Haoyu' 
‘(College of Information Science and Technology, Beijing University of Chemical 
Technology, Beijing 10010, China) 

Abstract: 

Named entity recognition is an important step in recognizing text and 
understanding it, and after a long development, it has become a common approach 
to study and improve the named entity recognition process using deep learning 
methods. This project implements a Chinese named entity recognition system using 
an LSTM model-based approach and achieves a high accuracy rate. 

Keywords: Chinese Named Entity Recognition Deep Learning LSTM 


项 目 目标 


命名 实体 识别 是 指 识别 出 文本 中 具有 特定 意义 的 命名 实体 并 将 其 分 类 为 预先 定义 的 实 

体 类 型 ， 如 入 名、 地 名 、 机 构 名 、 时 间 、 货 币 等 。 在 大 数据 时 代 ， 如 何 精准 并 高 效 地 从 海量 
无 结构 或 半 结 构 数 据 中 获取 到 关键 信息 , 这 是 自然 语言 处 理 任 务 的 重要 基础 。 命 名 实体 通常 
包含 丰富 的 语义 ,与 数据 中 的 关键 信息 有 着 密切 的 联系 ，NER 任务 可 以 用 于 解决 互联 网 文本 
数据 的 爆炸 式 信息 过 载 问题 ， 能 有 效 获 取 到 关键 信息 ， 并 广泛 应 用 于 关系 抽取 、 机 器 翻译 以 
及 知识 图 谱 构建 等 领域 .本 项 目 鉴 于 命名 实体 识别 任务 的 重要 性 , 结合 学 习 内 容 和 自学 资料 ， 
拟 实现 一 个 中 文 的 命名 实体 自动 识别 系统 ， 使 用 基于 LSTM 模型 的 方法 ， 实 现 命 名 实体 识别 
的 功能 ， 并 结合 窗口 展示 功能 ， 完 成 系统 。 在 获取 的 数据 集 上 进行 实验 ,识别 文字 中 的 专 有 
名 词 : 人 名 、 地 名 、 组 织 机 构 名 ,提取 文字 中 丰富 的 语义 信息 ， 可 以 在 应 用 场景 中 达到 良好 


的 效果 。 


二 、 国 内 外 相关 


自 1991 年 第 7 届 IEEE 人 工 智能 应 用 会 议 上 Rau 发 表 了 一 篇 “从 文本 中 
名 的 方法 ， 经 过 30 年 NER 的 发 展 历程 ， 主 流 的 NER 


统计 机 器 学 习 的 方法 和 基于 深度 学 习 的 方 


的 论文 ， 提 出 了 一 种 从 文本 中 提取 公司 
方法 可 以 分 为 3 类 : 基于 规则 和 词典 的 方法 、 基 了 


法 。 这 3 类 方法 根据 处 至 


2.1 基于 规则 和 词典 的 NER 方法 


工作 


= 


LER MAN A TA FTE 


包括 NameTag 和 HASTEN 


机 构 名 称 的 结构 规律 和 形态 标记 等 特点 进 


校 名 称 实体 ， 正 确 率 达到 了 97. 3%. 2002 年 ， 王 宁 等 所 从 专业 名 词 识 别 的 角度 ， 针 对 金 
闻 文 本 , 充分 考虑 金融 领域 的 特征 ,利用 规则 的 方法 专门 针对 公司 名 的 识别 问题 进行 了 研究 ， 
息 ， 归 纳 形 成 知识 库 ， 并 采取 两 次 扫描 的 策略 进行 识 


总 结 了 公司 名 的 结构 特征 以 及 上 下 文 信 


[mi 


别 。 


基于 词典 和 规则 的 实体 识别 方法 使 


1 取 公司 名 称 ” 


早期 的 NER 方法 主要 运用 由 语言 学 专家 根据 语言 知识 特性 手工 构造 的 规则 模板 ,通过 匹 


配 的 方式 实现 命名 实体 的 识别 。1995 4B, Krupkal 提出 了 一 个 月 


于 英文 NER 的 SRA 系统 ， 


两 个 子 系统 。 面 向 中 文 的 NER 起 步 较 晚 ，1997 年 ， 张 小 衡 等 "根据 


| 


步 总 结 规则 , 从 600 多 万 的 三 地 语料库 中 识别 高 


会 融 新 


期 实体 利用 规则 匹配 的 方式 能 获得 较 好 的 识别 效果 。 但 是 词典 和 规 由 
时 间 和 和 人力; 不 同 的 实体 类 型 需要 定制 相应 的 规则 ， 移 植 性 差 。 为 了 解决 上 述 问 题 ， 


家 学 者 研究 了 统计 机 器 学 习 的 实体 识别 方法 "。 


2.2 基于 统计 机 器 学 习 的 NER 方法 


(1) 有 监督 学 习 


简单 ,结果 准确 率 较 高 , 特 


别 是 对 于 数字 和 时 间 日 


I 库 的 建立 需要 花费 大 量 


一 些 专 


有 监督 学 习 的 NER 方法 是 将 NER 任务 转换 成 分 类 问题 ,通过 机 器 学 习 方法 将 已 标记 的 语 


料 构造 为 特征 向 量 ， 以 此 建立 分 类 模型 来 识别 实体 。 采 月 


有 监督 机 器 学 习 的 分 类 模型 包 


4% :HMM(hidden Markov models)、MEM(maximum entropy mo-dels)、SVM (support vector 


machines) 和 CRF (condi-tional random fields) 等 模型 。 


基于 HMM 的 NER 方法 利用 维特 比 算法 将 可 能 的 目标 序列 分 配给 每 个 单词 序列 , 能 够 捕捉 


现象 的 局 部 性 ， 进 而 提高 了 实体 识别 性 能 。Bikel 等 "基于 大 小 写 、 


数字 符号 、 句 子 首 词 等 


特征 , 利用 HMM 来 计算 某 


单词 为 某 一 实体 类 型 的 概率 。Zhou 等 "提出 


! 基 于 HMM 的 组 块 


标记 器 的 NER 方法 , 在 Bikel AAEM 


下 文 特征 , 对 HMM 的 传统 公式 做 了 改进 , 以 便 


1 上 扩充 了 内 部 语义 特 梨 


E、 内 部 地 名 词典 特征 以 及 外 部 上 


SET Jae HMM 的 中 文 NER 模型 ， 


对 于 中 文 NER, Mispe EH 
基于 MEM 的 NER FAW EB BREA 
从 而 来 确定 某 一 实体 的 类 型 ， 


能 融合 更 多 的 上 下 文 信息 来 而 


有 定 当 前 预测 类 型 。 


该 模型 


进行 


由 三 级 HMM 构成 。 


E 已 知 部 分 知识 的 前 提 下 选择 燃 最 大 的 概率 分 布 ， 
MEM 能 够 较 好 地 融合 多 种 特征 信息 


分 类 。Borthwick 等 中 


最 早 将 MEM 用 于 英文 NER 任务 , 综合 考虑 了 首 字 母 大 小 写 、 


标题 等 多 种 特征 信息 。 对 了 
该 模型 能 集成 
模板 和 全 局 特征 模 

SVM 是 定义 为 特征 空间 上 的 | 
类 问题 转换 成 线性 可 分 问题 ， 然 后 


得 到 全 局 最 优化 。 该 模型 在 NER 


文 NER 


局 部 与 全 


司 隔 
基 


FE 务 上 被 广泛 使 朋 


句子 的 结 


1 | 


, TAA AS BE 


Bj 


种 融合 多 特 和 
局 多 种 特征 , 将 规则 和 机 器 学 习 的 方法 相 结 合 , 分 别 构建 了 局 部 特征 
妈 ， 同 时 引入 启发 式 知 识 解 决 效率 和 空间 问题 。 


最 大 的 线性 分 类 器 。 首 


先 通 


于 结构 风险 最 小 型 


H, Isozaki 


fa UR CAE BA 


过 高 维特 征 空间 的 转化 使 


EA MEM 中 文 NER 模型 ， 


LE 论 构建 最 优 分 割 超 平 


Age (11) 


= 


H 


， 使 得 分 类 器 


等 “ 提 


出 了 一 种 基于 SVM 的 特 


征 选择 方法 以 及 有 效 的 训练 方法 , 能 增加 系统 训练 的 速度 。 陈雷 等 “针对 中 文 组 织 机 构 名 的 


识别 任务 , 提出 了 一 种 基 导 


进行 选择 ， 逐 步 : 


P SVM 的 分 布 递 增 式 学 习 的 方法 ， 利 月 
增加 分 类 器 训练 样本 的 规模 ， 进 


CRF 模型 统计 了 全 


CRF 具有 表达 长 昌 


同 概 率 ， 不 仅 在 局 部 进行 归 


Ha 


Ea 
步 提高 分 类 器 的 识别 精度 。 
一 化 ， 且 考虑 了 数据 在 全 局 的 分 布 情况 。 


的 策略 对 训练 样本 


决 标注 偏 置 


H 
用 于 NER. 


Age [13] 


问题 。 即 使 CRF 具有 时 间 复 


Fa 


EA AR RPE AC PENI OL, HE CRA E F cfg A ATR, 


FN 


McCallum 等 


BVA RE EBLE es T E A YY 


he 


la), HEY 


E， 又 显著 减少 了 特征 数量 


一 种 层 倒 CRF， 该 模型 在 第 二 层 包含 实体 和 词性 等 特 和 


= 


使 


名 称 和 临床 症状 两 类 命名 实体 进行 识别 。 


(2) 无 监督 学 习 


为 了 解决 跨 域 和 跨 语言 标注 文本 的 不 足 ， 学 者 们 提出 了 NER 的 无 监督 学 习 技术 。 无 监督 
决策 。 无 监督 学 习 旨 


F 数 据 的 学 习 。 比 如 ，2016 Æ, Han 等 器 提 出 


学 习 是 不 需要 使 有 


标注 数据 的 算法 ， 


该 方法 使 月 


未 标注 的 数据 来 做 
考虑 数据 的 结构 和 分 布 特征 ， 从 而 发 现 更 多 关 了 


可 以 解 


度 高 导致 的 训练 难度 大 等 问题 , 但 仍 十 分 广泛 地 被 
提出 了 一 种 基于 CRE 的 特征 归纳 的 NER 方法 , 与 传统 方法 相 比 , 自 


。 燕 杨 等 "针对 中 文 电子 病历 的 NER 


FE 的 特征 集 ， 对 疾病 


在 


层 分 类 器 在 文档 中 查找 


一 个 基于 聚 类 主动 学 习 的 生物 医学 NER 系统 , 该 聚 类 方法 通过 使 用 底 
候选 命名 实体 来 进行 聚 类 ， 因 而 更 能 反映 命名 实体 的 分 布 。 


2.3 基于 深度 学 习 的 NER 方法 


g 


MREFA NER 方法 一 般 流程 如 图 


所 示 ， 


EAJ AH"; (1)Sequence, Fab 


后 


的 输入 序列 。 (2)Word embedding ， 将 输入 序列 转换 成 固定 长 度 的 向 量 表 示 。 (3) Context 


encoder ， 将 词 租 入 进行 语义 编码 。(4)Tag decoder， 进 一 步 进行 标签 解码 。 


B-PER E-PER O O O S-LOC O S-LOC O 


Zhang San was born in Beijing , China 
A 
fe Softmax, CRF, RNN… 
du 
A 
Context 
encoder CNN, LSTM, Bi-LSTM, GCN, Transformer: 
A 
Word 
embedding Mice BERT: 
Zhang San was born in Beijing , China . 
Sequence w: 8 -i g L 


表 1 基于 深度 学 习 的 NER 一 般 流 程 " 
2011 Æ, Collo-bert 等 "提出 了 一 种 基于 CNN 的 NLP 模型 ， 能 处 理 包含 NER 等 多 种 任 
务 。2021 Æ, Kong 等 提出 一 种 融合 多 层次 CNN 和 注意 力 机 制 的 中 文 临床 NER 方法 。 该 方 
法 既 能 捕捉 短 距离 和 长 距离 的 上 下 文 信息 , 且 注 意 力 机 制 还 能 获取 全 局 上 下 文 信息 , 进一步 
解决 了 LSTM 在 句子 较 长 时 无 法 捕捉 全 局 信息 的 问题 。 近 年 来 ，GCN (graph convolutional 


network) 和 GGNN (gated graph neural network) 在 NER 任务 中 得 到 广泛 的 关注 。Cetoli 等 
“率先 在 NER 任务 中 使 用 图 GCN 来 解决 实体 识别 问题 ,在 传统 的 Bi-LSTM-CRF 模型 的 Bi-LSTM 
层 和 CRF 层 中 间 额 外 添加 一 层 GCN 层 , 利用 句子 的 句法 依存 关系 构图 , 通过 GCN 将 节点 信息 
传递 给 最 近 的 节点 ， 通 过 将 N 层 图 堆 炙 在 一 起 ， 可 以 传播 最 多 相距 N 跳 的 节点 特征 。 基 于 
Transformer 方法 典型 代表 是 BERT 类 的 预 训练 模型 。Souza 等 "在 NER 任务 上 提出 一 种 
BERT-CRF 模型 ,将 BERT 的 传输 能 力 与 CRF 的 结构 化 预测 相 结合 。Yang 等 ”提出 了 一 种 分 层 
WJ Transformer 模型 ， 应 用 于 拒 套 的 NER。 基 于 深度 学 习 的 NER 方法 中 ，Transformer 方法 
代表 模型 为 BERT， 注 意 力 层 能 够 利用 句子 中 标签 顺序 及 出 现 规律 进行 标签 预测 ， 解 决 了 神 
经 网 络 仅 根据 单个 字 向 量 做 标签 预测 的 问题 , 其 优越 性 在 于 它 能 够 给 各 单元 分 配 一 个 相关 性 
权重 ， 能 够 显 性 地 分 辨 哪个 词 对 实体 正确 表示 最 为 关键 ， 有 效 地 剔除 噪音 ， 进 一 步 提升 模型 
效果 。 采 用 掩 码 语言 模型 对 双向 的 Transformer 进行 预 训练 ， 以 生成 深层 的 双向 语言 表征 ， 
但 需要 大 量 GPU 和 训练 数据 。 


三 、 实 现 系 统 〈 或 模块 ) 的 核心 思想 和 算法 描述 


在 文献 调研 过 程 中 ， 我 们 关注 到 有 关 LSTM 模型 的 命名 实体 识别 相关 工作 ， 该 种 模型 在 


命名 实体 识别 领域 具有 十 分 广泛 的 应 用 ,英文 NER 领域 发 展 较 快 ， 因 项 目 目标 定 为 拟 实现 中 
文 命 名 实体 识别 工作 ， 所 以 在 关注 中 文 的 NER 发 展 情况 过 程 中 ， 发 现 了 LSTM 在 中 文 NER 中 
的 逐步 应 用 ，LSTM 是 RN 的 一 种 变 体 ， 其 核心 概念 在 于 细胞 状态 以 及 “ 门 ” 结 构 。 细 胞 状 


or 
>- 
my 
k 
| 
a 
IF 


当 于 信息 传输 的 路 径 ， 让 信息 能 在 序列 连 中 传递 下 去 :“ 门 ”结构 在 训练 过 程 中 会 去 学 


习 该 保存 或 遗忘 哪些 信息 。 实 现 系统 采用 了 双向 LSTM 模型 进行 命名 实体 识别 ， 使 用 python 


nS 
WE 
aH 
Dill 
a 
panel 


一 个 全 连接 层 〈 分 类 ) 组 成 ， 代 码 如 下 : 


H pytorch 机 器 学 习 库 实 现 。 模 型 的 主要 框架 由 一 个 嵌入 层 、 一 个 LSTM 层 和 


class BiLstm(nn.Module): 
def _init_ (self, corpus num, embedding num, hidden_num, class_num, 
bi=True): 
super().__init__() 
self.embedding = nn.Embedding(corpus_num, embedding_num) 
self.lstm = nn.LSTM(embedding_num, hidden_num, batch_first=True, 
bidirectional=bi) 
if bi: 
self.fc = nn.Linear(hidden_num * 2, class_num) 
else: 
self.fc = nn.Linear(hidden_num, class_num) 
def forward(self, batch_data): 
embedding = self.embedding(batch_data) 
out, _ = self.lstm(embedding) 
return self.fc(out) 


ry 


TRAY HT AC AR eR BE IRR Lit ize, FRBETT eee, EH Adam 优化 器 
学 习 更 新 模型 参数 。 对 数据 集 的 获取 ， 选 择 了 中 文 NER 引入 词汇 信息 的 开山 之 作 , RA ACL 


2018 的 论文 Chinese NER using Lattice LSTM 中 从 新 浪 财 经 收集 的 数据 。 标 注 集 采 


J] BIOES 


的 格式 B 表示 实体 开 涉 ,，E 表示 实体 结尾 ，I 表示 在 实体 内 部 ，LOC、PER 等 表示 具体 的 实 


体 ，0 表示 非 实体 )， 句 子 与 句子 之 间 用 一 个 空 行 隔 开 。 有 具体 如 下 : 


新 B-ORG 
华 M-ORG 
社 E-ORG 
华 B-GPE 
M-GPE 
ii E-GPE 
4 0 


OOOGO 


电 O 
CO 
i O 
者 O 
#2 B-PER 
se M-PER 
Ft E-PER 
) O 


而 在 训练 模型 之 前 需要 一 些 预 处 理 。 首 先 需 要 对 数据 集 进行 处 理 构 建 词 表 ， 建 立 字 到 数 
的 映射 以 及 分 类 到 数 的 映射 , 除了 训练 集中 的 字 , 还 需要 添加 ”<PAD>” 和 ”<UNK>” 表 示 填 
充 符 (用 于 填充 句子 使 一 批 样本 长 度 相同 进行 训练 ， 和 未 知 字符 (测试 时 出 现 而 训练 集中 没 


有 的 字 )。 然 后 建立 MyDataset 类 (继承 torch. utils. data. Dataset) 实现 自己 的 数据 集 ， 


mm 


其 功能 是 调用 Dataloader 封装 时 ,可 以 指定 参数 collate fn 为 自 定义 函数 pro batch data, 
实现 多 个 句子 长 度 对 齐 〈( 填 充 ”<PAD>“) 并 转化 为 GPU 上 的 张 量 。 
def pro_batch data(self,batch datas): 
global device 
lenth=len(batch_datas[0][0]) 
datas,tags=[],[] 
for data,tag in batch_datas: 
datas.append(data) 
tags.append(tag) 


datas = [i + [self.word2index["<PAD>"]] * (lenth - len(i)) for i in datas] 
tags = [i + [self.tag2index["<PAD>"]] * (lenth - len(i)) for i in tags] 


return 
torch.tensor(datas,dtype=torch.int64,device=device),torch.tensor(tags,dtype=tor 
ch.int64,device=device) 


四 、 系 统 主要 模块 流程 


本 项 目的 程序 文件 如 下 图 所 示 : 


be 大 作业 


图 1 项 目 结构 


文件 主要 包含 以 下 几 个 部 分 ， 文 件 名 与 相对 应 功能 解释 如 下 : 


main.py 窗口 主 程序 
窗口 .ui 窗口 原始 下 文件 
窗口 .py 窗口 对 应 py 文件 
ner model.py 模型 
bilstm.ipynb 训练 模型 使 用 的 jupyter 文件 
bilstm.pth 模型 参数 
data 数据 集 
dict 词 表 
最 终 展示 采用 窗口 形式 ， 相 应 功能 通过 pyqt5 实现 。 点 击 确 定 按钮 便 可 以 调用 相应 NER 


函数 ， 通 过 之 前 训练 好 的 模型 对 句子 中 的 字 进 行 分 类 ， 实 现 命名 实体 识别 。 


命名 实体 识别 系统 


请 输入 句子 (中 文 ) : 
1 


= a x 


2 AA SAH Bal AT LC FE 


系统 使 用 流程 图 如 下 : 


用 户 输入 名 调用 模型 进行 命 
子 ， 点 击 按钮 实体 识别 


加 载 模型 参数 


五 、 实 验 结果 及 分 析 


30 次 训练 平均 损失 变化 如 下 : 


epoch 


图 3 训练 效果 


训练 过 程 较 好 ， 最 后 的 在 训练 集 上 平均 损失 达到 0.003， 训 练 集 上 fl 值 达 到 0.99， 而 
测试 集 fl 值 仅 0.94， 存 在 一 定 过 拟 合 现象 ， 推 测 其 原因 : 一 是 该 数据 集 规模 较 小 ， 训 练 集 


AX 50000 个 字符 ; 二 是 中 文 较为 复杂 , 模型 更 难 学 习 到 数据 间 特 征 , 导致 缺乏 良好 的 泛 化 性 。 
在 经 过 多 次 随机 输入 一 些 语句 的 实验 后 , 发现 本 系统 对 地 名 、 机 构 名 识别 较为 准确 , 但 


是 人 名 识别 准确 


tr 


率 偏 低 ， 这 与 训练 集 实体 大 部 分 是 地 名 、 机 构 名 有 关 。 主 要 实验 结果 如 下 : 


a) 命名 实体 识别 系统 


pala 


美国 的 华 莱 士 ， 我 和 他 谈笑风生 。 
香 潜 记 者 跑 得 得 快 。 


©) 命名 实体 识别 系统 


请 输入 句子 (中 文 》: 


美国 第 一 任 总 统 是 华盛顿。 
马龙 是 乒乓 球 运动 员 。 


B-GPE 
E-GPE 
S-GPE 
M-PER 
E-PER 
B-GPE 
E-GPE 


oe et 


T 命名 实体 识别 系统 


请 输入 句子 (中 文 ) : 


中 央 银 行 宣布 降息 。 
北京 是 中 国 的 首都 。 


将 
oF 


Butane ea A 


B-ORG 
M-ORG 
M-ORG 
E-ORG 
B-GPE 
E-GPE 
B-GPE 
4} E-GPE 


H 


©) 命名 实体 识别 系统 


请 输入 句子 (中 文 ) : 
平安 银行 在 上 海 证 券 交 易 所 上 市 。 


B-ORG 
B-ORG 
M-ORG 
E-ORG 
B-ORG 
M-ORG 
M-ORG 
M-ORG 
M-ORG 
M-ORG 
E-ORG 


Ske woaeswe+ Y 


图 4 识别 效果 
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